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近代 根 纸 资源 细 粒 度 语 义 指 述 蛋 型 设计 及 应 用 
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摘 要 ; [目的 /意义 ] 设计 科学 规范 的 近代 报纸 资源 细 粒 度 语义 描述 模型 ,深入 揭示 近代 报纸 资源 特征 及 关联 关系 ,为 
近代 报纸 资源 的 有 效 管理 .组织 及 知识 发 现 、 知 识 服务 提供 参考 。[ 方 法 /过 程 ] 通过 分 析 近 代 报 纸 资源 逻辑 结 
构 、 物 理 布局 .内容 信息 等 ,从 领域 本 体 和 元 数据 描述 两 方面 着 手 , 复 用 CIDOC-CRM 本 体 概念 模型 和 EAD、DC、 
《古籍 元 数据 规范 》 ,以 《 盛 京 时 报 ) 为 例 设计 近代 报纸 资源 细 粒 度 语义 描述 模型 ,并 采用 Oxygen XML 工具 将 语义 
描述 模型 用 RDE/XML 语言 进行 描述 ,实现 元 素 互 操作 和 模型 应 用 。[ 结果 /结论 ] 为 近代 报纸 资源 组 织 提 供 一 个 
可 操作 的 细 粒 度 语义 描述 模型 ,为 近代 报纸 资源 库 构 建 、 报 纸 规范 化 管理 及 应 用 系统 开发 等 提供 基础 保障 ,促进 
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二 = ”近代 报纸 资源 的 开发 .利用 与 共享 。 
GEF: ARRA 

(DES. C254 

fot. 10. 13266/j. issn. 0252 —3116. 2022. 07. 004 


语义 描述 模型 《 盛 京 时 报 》  RDF/XML 


近代 报纸 文献 全 方位 记载 了 近代 社会 的 巨大 变 
革 5 承 载 着 时 代 印 记 , 是 研究 社会 史 、 政 治 史 经 济 史 、 
DEE ,新闻 史 的 重要 信息 来 源 。 近 代 报 纸 起 源 于 西 
方 晓 本 主义 萌芽 阶段 ,如 德国 人 古 登 堡 在 15 tib 
叶 疙 明了 金属 活 版 印刷 术 , 随 之 报纸 锥 形 “新 闻 书 ”出 
WT 世纪 资本 主义 在 欧洲 盛行 ,各 国 代表 性 报纸 日 


"m 较 于 西方 ,中 国 近代 报纸 诞生 较 晚 ,第 一 批 由 
外 国 传教 土 在 华 创办 ,如 《 察 世 俗 每 月 统 纪 传 《东西 
洋 考 每 月 统 纪 传 《 申报》 及 《 盛 京 时 报 》 等 。 这 些 报纸 
由 外 国人 创办 , 带 有 主观 的 政治 倾向 色彩 ,以 传播 西方 
文化 为 主 。 近 代 国 人 最 早 自 办 的 日 报 是 艾 小 梅 于 
1873 年 在 汉口 创办 的 《 昭 文 新 报 》 , 继 之 戊戌 变法 、 
辛亥 革命 和 新 文化 运动 发 生 , 改 良 派 革命 派 及 新 型 资 
产 阶 级 逐渐 登 上 历史 舞台 《时 务 报 光 知 新 报 》《 国 闻 
报 》 等 报纸 也 陆续 涌现 ,成 为 舆论 宣传 阵地 。 五 四 运动 
作为 中 国 现代 史 开 端 ,将 马克 思 主 义 成 功 引入 国内 , 革 
命 报 纸 《 向 导 》《 新 青年 《共产 党 《中 国 青 年 ) 等 创刊 


发 行 ,政治 功能 凸显 。 此 后 ,土地 革命 .抗日 战争 和 人 解 
放 战 争 爆发 ,红色 报纸 大 批 刊行 ,如 《红星 《抗战 日 
报 兴 解放 日 报 兴 晋 察 副 日 报 》。 由 此 ,中 国 近代 报刊 
主要 以 救亡 图 存 为 目标 ,围绕 “启蒙 ”和 “革命 ” 展 
FE” ,是 该 时 期 (1840 - 1949 年 ) 报纸 栏目 多 样 ,内 容 
包罗 万 象 , 上 至 国内 外 重大 时 政 新 闻 动 态 ,下 至 市 井 民 
众生 活 百 态 ,报道 内 容 精 细 和 人 微 , 是 中 国 近 代 历 史 画 卷 
的 生动 “缩影 ” ,在 社会 变革 和 历史 动荡 中 扮演 着 重要 
角色 ,具有 珍贵 的 史料 价值 学 术 价值 和 历史 史实 的 订 
正 价值 ” 。 

近年 来 ,新 一 轮 科 技 革 命 鞍 勃兴 起 ,数字 技术 更 新 
迭代 ,文献 数字 化 成 为 历史 发 展 的 必然 趋势 。 近 代 报 
纸 资源 在 技术 赋 能 下 迎 来 了 新 的 发 展 机 遇 。 然 而 ,由 
于 近代 报纸 距 今 久远 ,纸张 老 旧 酸化 脆弱 、 破 损 严 重 ， 
面临 严峻 的 保存 危机 。 为 了 抢救 和 保护 近代 报纸 资 
Wi ,弘扬 优秀 传统 文化 ,一 些 学 术 组 织 和 商业 机 构 等 借 
助 现代 信息 技术 实现 近代 报纸 的 数字 化 长 期 保存 及 利 
用 。 如 以 国家 图 书馆 为 引领 的 文化 单位 启动 了 “革命 
文献 与 民国 时 期 文献 保护 计划 ?项目 , 襄 括 了 大 批量 近 
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代 报 纸 文献 ,该 项 目 受到 中 央 政府 的 高 度 重视 。2016 
年 该 项 目 被 列 人 《中 华人 民 共和 国 国民 经 济 和 社会 发 
展 第 十 三 个 五 年 规划 纲要 》,2017 年 又 被 写 人 《国家 
“十 三 五 "时 期 文化 发 展 改革 规划 纲要 》 和 《文化 部 “十 
三 五 "时 期 文化 发 展 改革 规划 》。 此 外 ,其 他 国家 图 书 
馆 也 以 工具 书 编制 ,专题 报纸 数据 库 构建 .影印 出 版 、 
缩微 复制 数字 加 工 等 方式 进行 历史 报纸 数字 化 活动 ， 
为 用 户 提供 报纸 资源 浏览 和 检索 功能 。 如 美国 国会 图 
书馆 数字 报纸 计划 、 欧 洲 报纸 数字 化 项 目 .芬兰 图 书馆 
数字 报纸 项 目 澳大利亚 国家 图 书馆 数字 报纸 项 目 等 。 
这 些 项 目 推动 了 报纸 资源 数字 化 建设 进程 ,为 报纸 次 
源 高 效 开发 和 利用 英 定 了 基础 。 

然而 ,笔者 通过 调研 国内 一 些 近代 报纸 资源 库 及 
顽强 库 ,发 现 近代 报纸 资源 库 缺 少 统一 规范 的 报纸 语 
义 擅 述 模型 作为 支撑 ,往往 是 文本 图 片 等 资源 的 简单 
堆砌 和 陈列 ,多 个 资源 库 检索 方式 单一 化 ,缺乏 对 报纸 
网 次 的 深度 揭示 及 多 维 语义 关联 关系 的 挖 据 与 组 织 ， 


选择 ,检索 和 阅读 功能 .报纸 资源 服务 方式 等 层面 解析 
民国 报纸 资源 建设 现状 ” ,并 提出 相应 的 解决 对 策 和 
建议 ” 。 
2.2 报纸 抢救 及 长 期 保存 方面 

A. Krahmer 以 北 德 克 萨 斯 大 学 和 斯 坦 福 大 学 的 合 
作 项 目 The Texas Digital Newspaper Program ( TDNP) 为 
例 , 曾 述 报纸 数字 化 保存 策略 ”;M.，Georgieva 以 内 华 
达州 数字 报纸 项 目 为 例 ,从 项 目 管 理 视角 讨论 报纸 项 
目 管理 技术 和 工具 ` 如 何 进行 报纸 抢救 及 长 期 保存 策 
We 。 国 内 学 者 则 以 地 方 近代 报纸 数字 化 建设 为 
例 … ,探讨 其 数字 化 技术 和 工具 、 分 析 数 字 化 报纸 的 
必要 性 和 优势 ,并 提出 抢救 近代 报纸 的 相关 建议 。 
2.3 ”报纸 数据 质 检 方面 

J. Jarlbrink 等 分 析 了 瑞典 国家 图 书馆 在 历史 报纸 
数字 化 过 程 中 的 数字 噪音 问题 ” ,如 光学 字符 识别 
( Optical Character Recognition ,OCR ) 识别 质量 参差 不 
JF .载体 形态 转换 价值 丢失 数字 外 包 质 量 控制 风险 
等 。 数 字 噪 音 是 报纸 数字 化 过 程 中 的 焦点 问题 ,数字 


停 贸 在 物理 载体 层面 的 简要 描述 ,严重 限制 了 用 户 获 
取 幼 粒度 信息 的 多 种 可 能 性 ,也 无 法 快速 锁定 目标 需 
求 惕 源 ,影响 用 户 服务 质量 。 因 此 ,有 必要 设计 一 个 全 
朴 对 范 .可 互 操作 的 近代 报纸 资源 细 粒 度 语义 描述 模 
型 抽取 结构 化 知识 以 满足 用 户 的 复杂 信息 获取 和 检 
索 需 求 , 提 高 知识 服务 效率 。 在 此 背景 下 ,本 文 依据 近 
代 报 纸 逻 辑 结构 ,物理 布局 及 内 容 特 征 ,从 领域 本 体 和 
难 钥 据 描述 入 手 , 设 计 近 代 报纸 资源 细 粒 度 语义 描述 
模 刘 ,以 期 为 近代 报纸 资源 库 构建 ,报纸 规范 化 管理 及 
应 册 系 统 开发 等 提供 基础 保障 ,促进 近代 报纸 资源 的 
开 驳 .利用 与 共享 。 


2 相关 研究 


通过 对 国内 外 近代 报纸 资源 相关 研究 文献 的 梳 
理 , 发 现 学 者 们 主要 聚焦 于 报纸 数字 化 项 目 建设 报纸 
抢救 及 长 期 保存 .报纸 数字 化 过 程 中 数据 质 检 、 数 据 噪 
音 等 问题 以 及 报纸 资源 知识 组 织 研究 等 4 个 层面 。 
2.1 报纸 数字 化 项 目 建 设 方面 

P. Tonijala 等 全 面 细致 地 介绍 了 美国 国家 数字 报 
纸 计 划 项 目 , 并 提出 将 报纸 资源 内 容 舱 入 到 教育 教学 
th R. Atanassova 等 对 欧洲 图 书馆 数字 报纸 项 
目 网 站 建设 历程 及 功能 模块 进行 分 析 ““ ,以 满足 数 


化 质量 直接 影响 报纸 资源 的 开发 利用 ;国内 学 者 探讨 
了 民国 报纸 数字 化 实践 中 的 质 检 问 题 ,如 报纸 版 式 识 
别 和 OCR 文字 识别 .报纸 记录 标识 号 、 报名、 出 版 日 
期 .版 次 .栏目 等 问题 。 
2.4 报纸 知识 组 织 方面 

学 者 们 主要 围绕 报纸 资源 元 数据 描述 规范 展开 论 
述 。 在 报纸 数字 化 实践 项 目 中 ,一 般 采 用 书目 元 数据 
标准 粗略 定义 其 元 素 特 性 。 如 美国 国会 图 书馆 数字 报 
纸 计 划 采 用 METS 文档 中 的 元 数据 对 象 描 述 模式 
(Metadata Object Description Schema, MODS) H! ; 芬兰 
司 家 图 书馆 历史 报纸 数字 化 项 目 主要 参考 DC 标准 描 
述 报纸 标题 .出 版 商 .出 版 日 期 等 元 素 “ ;中 国 国家 图 
书馆 民国 数字 化 报纸 描述 采用 MARC 格式 著录 ,主要 
记载 民国 报纸 文献 内 容 特 征 ,载体 形态 .记录 来 源 等 信 
息 ”。 上 述 内 容 均 以 参考 成 熟 的 元 数据 标准 为 主 ,并 
在 项 目 实践 中 粗略 揭示 报纸 资源 特征 ,缺少 对 报纸 资 
源 内 容 层面 的 深度 挖掘 和 标 引 , 且 各 个 资源 库 元 数据 
描述 较为 单一 化 ,尚未 全 方位 描述 报纸 资源 的 语义 特 
征 及 关联 关系 。 

在 报纸 资源 元 数据 描述 理论 研究 方面 ,主要 探讨 
元 数据 描述 分 析 、 元 数据 辅助 用 户 交 互 检索 ”、 识 别 


字 人 文 研究 者 相关 知识 需求 。 国 内 学 者 主要 以 国家 图 
书馆 北京 大 学 图 书馆 、 首 都 图 书馆 、 上 海 图 书馆 或 区 
域 省 市 图 书馆 所 收藏 的 近代 报纸 等 为 例 , 从 数字 化 报 
纸 品 种 报纸 资源 数量 .报纸 资源 类 型 .时间 范 围 内容 


用 户 检 索 模 式 、 本 地 化 元 数据 标准 ” 等。 如 J H. 
Rho 对 《朝鲜 殖民 报 》 进 行 详尽 的 元 数据 元 素 设计 与 应 
用 ,深入 报纸 知识 内 容 单元 ,从 报纸 文章 和 广告 元 数据 
分 析 报 纸 属性 ,设计 元 数据 标准 ” ,试图 实现 元 数据 
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标准 本 地 化 目标 ,推动 报纸 资源 长 期 保存 ;P. Fafalios 种 :元 数据 标准 和 领域 本 体 模 型 。 成 熟 的 元 数据 标准 


以 1987 -2007 年 《纽约 时 报 》 为 数据 源 ,采用 档案 描述 
元 数据 和 语义 信息 构建 资源 描述 框架 (Resource De- 


和 领域 本 体 可 以 为 近代 报纸 资源 语义 描述 模型 构建 提 
共 参 考 借鉴 。 笔 者 通过 梳理 与 近代 报纸 资源 性 质 相 似 


scription Framework, RDF) 图 ,试图 解决 报纸 档案 资源 
的 语义 信息 检索 问题 ” ;T，Bogaard 等 通过 日 志 分 析 
法 探讨 了 荷兰 国家 图 书馆 历史 报纸 元 数据 在 用 户 搜 索 
行为 方面 的 效用 ,识别 用 户 的 搜索 模式 。 国 内 学 者 
则 主要 探讨 历史 报纸 数字 化 .保存 策略 及 报纸 数据 库 
建设 等 ,缺乏 对 报纸 资源 的 深层 次 语义 描述 和 组 织 , 且 
文献 成 果 鲜 少 。 代 表 性 的 有 丁 小 蓄 等 参考 DC 标准 从 
版 次 级 和 篇 目 级 粗略 设计 了 报纸 元 数据 ; 王 静 等 从 
正文 广告 .图 片 三 大 类 型 资源 的 元 数据 著录 规则 入 
手 ,重点 阐述 了 该 库 的 资源 揭示 与 知识 组 织 , 并 分 析 了 
《时 报 ) 数 据 库 的 功能 构建 情况 。 以 上 2 篇 文献 简 
要 挤 示 了 报纸 资源 的 形式 特征 ,缺乏 语义 深度 。 

一 综 上 所 述 ,国内 学 者 对 近代 报纸 进行 研究 的 文献 
PR Jot 是 图 情 档 学 科 在 报纸 知识 组 织 方面 的 研 
完成 果 稀 缺 , 旦 研究 深度 不 足 。 在 新 文科 建设 和 数字 
人 天 浪潮 的 冲击 下 ,近代 报纸 资源 知识 组 织 研究 理应 
受到 学 界 重视 和 关注 。 图 情 档 学 科 也 应 发 挥 学 科 优 
手 \ 寿 近代 报纸 资源 进行 全 方位 语 看 义 描 述 和 揭示 ,充分 
性 屠 报纸 应 有 的 文献 价值 和 史料 价值 。 因此 ,为 了 弥 
air cte 页 域 的 研究 空白 ,本 文 深入 考量 报纸 
资源 特征 ,从 本 体 和 元 数据 描述 两 方面 构建 一 个 全 面 
的 通 代 报纸 资源 细 粒 度 语义 描述 模型 ,并 以 《万 京 时 
报 、 Jui 采用 RDE/XML 语言 实现 资源 的 互 操 作 和 实 
路 应 用 ,推动 近代 报纸 资源 的 高 效 组 织 及 利用 ,提升 近 


的 元 数据 标准 及 领域 本 体 ,从 而 提炼 出 合适 的 部 分 进 
行 复 用 ,以 此 构建 近代 报纸 资源 细 粒 度 语义 描述 模型 。 
3.1 元 数据 标准 
元 数据 被 称 为 数据 的 “数据 ”, 是 对 基础 数据 进行 
更 高 维度 和 层次 的 抽象 ,由 元 素 、 修 饰 词 及 属性 组 成 。 
元 数据 可 以 对 数字 信息 资源 进行 内 容 属性 和 特征 的 描 
XR ,形成 规范 化 数据 描述 体系 ,以 便 对 资源 进行 有 效 管 
JE 组织 和 检索 。 笔 者 对 适用 于 近代 报纸 资源 描述 的 
元 数据 标准 MARC .DC EAD, .MODS .CADAL 和 《古籍 
元 数据 规范 》 进 行 了 梳理 ( 见 表 1)。 尽 管 上 述 元 数据 
标准 构成 元 素 和 元 素 限 定 词 有 所 差异 ,但 大 多 从 资源 
内 容 属 性 、 外 部 结构 等 方面 对 资源 进行 描述 ,其 中 DC, 
MODS 描述 范围 非常 广 ,普遍 适用 于 各 种 网 络 信息 资 
源 ;EAD 主要 用 于 描述 档案 和 手稿 资源 ,包括 文本 文 
档 、 电 子 文档 ,可 视 资料 和 录音 资料 等 ” ,其 高 层 元 素 
H EAD 头 标 、 档 案 描述 以 及 前 置 事项 组 成 ,其 中 EAD 
头 标 和 前 置 事项 提供 检索 信息 ,档案 描述 提供 档案 主 
Ife 7 ;MARC 主要 用 于 图 书馆 书目 数据 描述 ; 
CADAL 根据 DC 标准 制定 了 报纸 元 数据 著录 规范 , 复 
H 15 个 DC 元 数据 ,增加 2 个 自 定义 元 数据 ,版 本 信息 
(edition) 和 MARC 记录 ,描述 粒度 较为 粗糙 ;CDWA E 
要 用 于 艺术 品 ,收藏 品 等 资源 描述 ,包含 分 类 名称、 创 
建 者 \ 时 间 、 地 点 、 相 关 作品 等 540 个 元 素 ,描述 非常 全 
面 ;国家 文物 局 制定 的 《古籍 元 数据 规范 》 参 考 CDWA 


Cm 


THECA US ARARE RA TCR o 标准 并 自 定 义 部 分 元 素 , 共 包 括 23 个 元 素 , 描 述 较 为 
精细 。 
3 语义 描述 万 法 
当前 学 术 界 对 知识 进行 语义 描述 的 方法 主要 有 两 
表 1 常用 的 元 数据 标准 
元 数据 标准 简称 开发 机 构 发 布 时 间 应 用 对 象 
Machine-Readable Cataloging[28] (机 读 编 日 格式 标准 ) MARC 美国 国会 图 书馆 1970 年 图 书馆 书目 数据 
Dublin Code[29]( 都 柏林 核心 元 数据 ) DC 联机 图 书馆 中 心 .美国 超级 计 ”1995 年 。 网 络 信息 资源 
算 应 用 中 心 
Categories for the Description of Works of Art[30] (艺术 作品 描述 目 CDWA 艺术 信息 任务 组 20 世纪 ”艺术 品 .收藏 品 等 资源 描述 
录 ) 90 年 代 初 
Encoded Archival Description 5!) ( 编码 档案 描述 ) EAD 美国 档案 工作 者 协会 1993 年 ”档案 和 手稿 资源 
Metadata Object Description Schema[32] (元 数据 对 象 描述 架构 ) MODS 美国 国会 图 书馆 网 络 中 心 和 2002 年 网 络 信息 资源 
MARC 标准 办 公 室 
China-America Digital Academic Library[33]( 大 学 数字 图 书馆 国际 合 CADAL ” 中国 工 程 院 \CALISH 等 2002 年 “报纸 资源 
作 计 划 ) - 报纸 元 数据 著录 规范 
古籍 元 数据 规范 - 中 华人 民 共 和 国文 物 局 2017 年 ”古籍 类 资源 
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3.2 ”本体 模 型 
本 体 最 早 源 于 哲学 领域 ,是 对 客观 世界 中 事物 的 
抽象 概括 。 知 识 工程 领域 从 哲学 领域 借鉴 本 体 概念 ， 
并 赋予 了 新 的 含义 ,被 视 为 概念 及 概念 之 间 关 系 的 规 
范 化 和 明确 化 描述 ,用 来 描述 概念 .属性 和 关系 。R. 
Studer 等 "认为 本 体 是 共享 概念 模型 明确 的 形式 化 的 
规范 说 明 。 元 数据 和 本 体 都 是 对 信息 资源 的 结构 化 措 
述 方法 。 元 数据 主要 对 信息 资源 物理 特征 形态 进行 角 
释 , 旨 在 实现 资源 有 效 管理 和 检索 。 本 体 则 侧重 对 知 
识 进 行 描述 , 且 可 以 揭示 内 容 信息 ,如 入. 事 .地 .时 . 物 
等 实体 及 实体 概念 之 间 的 隐 含 关系 。 元 数据 是 以 资源 
为 中 心 的 辐射 结构 ,本 体 则 是 去 中 心 化 的 立体 网 状 结 
Kl ,元 数据 元 素 可 作为 本 体 中 概念 的 属性 5 。 常 用 的 本 
Ins A! FRBR,BIBFRAME,CIDOC. CRM, FOAF 等 。 
FRER 是 以 “实体 一 关系 "模型 重 构 书目 记录 的 功能 需 
求 框架 。BIBFRAME 简化 了 FRBR 模型 ,归纳 出 三 组 实 
ee le 
C 体系 标准 的 资源 描述 框架 词 表 , 用 于 描述 人 与 
人 送 间 的 社会 网 络 关系 。CIDOC_CRM 采用 面向 对 象 方 
义 了 文化 遗产 领域 实体 (概念 ) .属性 (关系 ) ,于 
mou 领域 国际 标准 (ISO21127 :2014 ) , 
其 2021 年 5 月 版 本 包括 81 个 类 和 160 个 属性 。CRM Sz 
体 江 型 非常 丰富 ,除了 对 文化 遗产 领域 资源 描述 外 ,也 
适 导 于 与 文物 相关 的 其 他 类 型 信息 资源 。 因 此 ,CRM 本 
SS si 
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4 近代 报纸 资源 细 粒 度 语 
设计 


义 描述 模型 


4.1 近代 报纸 资源 特征 分 析 

近代 报纸 资源 语义 描述 模型 设计 ,需要 全 面 考量 
近代 报纸 逻辑 结构 ,物理 布局 和 内 容 信息 。 本 文 以 近 
代 闻 名 中 外 的 《 盛 京 时 报 》 为 例 , 分 析 报 纸 资源 相关 特 
征 ,为 近代 报纸 资源 语义 描述 模型 设计 提供 参考 依据 。 
《 盛 京 时 报 》 是 日 本 人 中 岛 真 雄 于 1906 年 10 H 18 A 
在 沈阳 创办 的 中 文 报纸 ,发行 遍及 东北 ` 华 北 以 南 的 一 
些 城市 甚至 东南 亚 华语 国家 “ ,于 1944 年 停办 。 该 
报 以 国内 时 事 和 评论 为 主 , 主 要 汇聚 了 东北 地 区 金融 、 
商贸 .交通 教育 .文学 等 许多 方面 的 信息 ,价值 斐然 
是 研究 东北 军民 抗日 史 、 北 洋 军 阀 史 以 及 中 国 近代 史 
弥 足 珍贵 的 史料 。 

图 1 是 1906 年 10 月 25 日 《成 京 时 报 》 内 容 , 可 以 
看 出 报纸 的 整体 特征 信息 包括 报名 、 版 式 、 卷 号 .期 号 、 
版 面 . 栏 目 等 。 图 1(a) (d) 版 主要 以 “广告 "为 主 ,如 
“ 正 金 银行 广告 .三井 洋行 广告 ,延寿 大 药房 广告 ”等 ， 
广告 内 容 丰 富 ,类 型 多 样 ; 图 1(b) 、(c) 版 以 “正文 "为 
主 ,如 社论 .京师 要 闻 \ 东 三 省 要 闻 、 各 国 要 闻 专电、 公 
X 市井 杂 租 及 白话 等 栏目 等 均 以 文字 形式 描述 内 容 ， 
内 容 涉 及 “人 、 事 .地 、 时 、 机 构 、 职 官 " 等 实体 , 且 类 型 
多 样 化 ,社会 新 闻 .时 政 新 闻 ,文学 小 说 等 丝 已 呈现 。 
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1 《 盛 京 时 报 》(1906 ££ 10 月 25 H) 


笔者 为 确保 近代 报纸 资源 语义 描述 模型 的 适用 性 , 除 
了 调研 《 盛 京 时 报 》 外 ,浏览 查阅 了 国家 图 书馆 “中 国 
历史 文献 总 库 ' 近代 报纸 数据 库 ” 中 数 百 份 报纸 内 容 ， 
总 结 归纳 出 报纸 的 整体 形式 特征 ( 见 表 2 元 素 列 ) ,并 


发 现 近 代 报 纸 在 逻辑 结构 方面 主要 以 “正文 "和 “广告 ” 
为 主 。 因 此 ,在 设计 近代 报纸 描述 模型 时 , 既 要 考虑 到 
近代 报纸 的 物理 载体 特征 ,又 要 兼顾 报纸 的 逻辑 结构 信 
息 ,全 方位 解构 近代 报纸 资源 特征 ,抽取 结构 化 信息 。 
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表 2 近代 报纸 资源 全 局 元 数据 描述 


JUR 元 素 定 义 ” 元素 复 用 标准 元 素 限定 词 描述 示例 
title 题名 de: title alternative 报纸 英文 标题 日 文 标题 , 报 眉 标题 ,变更 后 报名 等 盛 京 时 报 
creation 创作 sach; creation creator 创刊 者 中 岛 真 雄 
creationDate 创刊 时 间 1906. 10. 18 
creationPlace 创刊 地 沈阳 
published 出 版 发 行 sach; published publisher 报纸 出 版 者 戌 京 时 报 
placeOfPublication 出 版 地 点 沈阳 
issued 出 版 时 间 1906 
printer 印刷 者 一 
printedPlace 印刷 地 点 沈阳 
printedDate 印刷 时 间 1906 
contributor 其 他 贡献 者 ”dc: contributor 一 社 长 .总 主笔 .总 编辑 .总 经 理 、 秘 书 、 督 印 人 等 菊池 贞 二 
type 民 纸 类 别 de: type - qr 文本、 声音 ,视频 等 类 型 文本 
描 language 内 容 语 种 dc; language - 民 纸 内 容 语种 Chinese 
description 描述 dc: description abstract 以 文本 形式 描述 近代 报纸 相关 信息 ,特别 是 其 他 ”该 报 收 罗 泛 博 ,对 当时 我 国 
元 素 未 覆盖 的 信息 ,提要 及 各 修饰 词 以 外 的 附注 “内 政 .外 交 、 经 济 、 军 事 、 文 
La 说 明 可 在 此 记录 ,如 :对 缺 字 的 说 明 , 对 报名 或 者 ”化 教育 \ 社 会 风情 等 
i5 创作 者 的 说 明 
subject 主题 de; subject keywords 描述 近代 报纸 的 主题 类 型 。 编 码 体系 修饰 词 可 政治, 军事、 人 文 等 
e 以 采用 中 国 分 类 主题 词 表 
e column 栏目 自 定义 np: i 报纸 栏目 信息 评论 、 东 三 省 要 闻 、 京 师 要 
er colomn 闻 、 各 省 要 闻 、 时 论 、 批 示 、 
© 小 说 、 社 说 ,文苑 \、 钦 差 行 
CD 踪 ` 专电、 市井 杂 姐 、 公 文 汇 
N 录 ` pd 
E publishedCycle 出 版 周期 ” 自 定义 np:pub- = 报纸 出 版 周期 有 月 报 周报 日报 等 日 报 
N lishedCycle 
> issue 总 期 数 自 定 义 np :issue = 民 纸 总 期 数 12347 期 
57 materials 材质 sach; materials 5 近代 报纸 有 油印 、 铅 印 A ED 1 Jc 油印 
>< measurements 计量 sach; measur- dimensions 来 描述 近代 报纸 尺寸 27.0 x20.0cm 
人 ements 
= quantity 发 行 数 量 = 
amcurreniCondition 现状 sach; current levelOfCompleteness 描述 近代 报纸 完 残 程度 缺 v 局 部 缺 
© Condition 
priority 描述 保护 优先 等 级 ,如 修复 级 别 部 分 修复 
BHnum 编号 ead ; num 一 报纸 编号 = 
identifier 识别 号 sach; identifier generalRegistr- 近代 报纸 在 收藏 管理 时 会 有 登记 号 .收藏 号 . 排 - 
ationNumber WE .分 类 号 等 作为 标识 
otherLocalNumber < 
管 currentLocation ”所 在 位 置 sach; current geographicLocation 近代 报纸 人 藏 机 构 辽宁 省 图 书馆 
理 Location 
性 accessionDate 近代 报纸 人 藏 日 期 一 
* origination 来 源 ead :origination corpname 报纸 来 源 机 构 辽宁 省 图 书馆 
" persname 报纸 来 源 机 构 T 
relatedDigital 数字 对 象 sach; related digitalResourcelden 描述 数字 对 象 识别 号 1906102800000001. jpg 
Resources DigitalResources tificationNumber 
digitalResource 数字 对 象 关系 类 型 原始 图 像 
RelationType 
digitalResource 文件 格式 jpg 
Format 
digitalResource 文件 日 期 中 
CreationDate 
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(SE 2) 
元 素 元 素 定义 ”元 素 复 用 标准 元 素 限定 词 描述 示例 
digitalResource 数字 对 象 创建 者 抗日 战争 与 近代 中 日 关系 
Creator 文献 数据 平台 
digitalResource 数字 对 象 所 属 机 构 抗日 战争 与 近代 中 日 关系 
Owner 文献 数据 平台 
digitalResource 数字 对 象 权限 抗日 战争 与 近代 中 日 关系 
Rights 文献 数据 平台 版 权 所 有 
管 digitalResource 数字 对 象 描述 盛 京 时 报 扫描 图 像 
理 Description 
性 digitalResourceLink 数字 对 象 链接 https://www. modernhisto- 
* ry. org. cn/#/DocumentDe- 
据 tails. bz? fileCode = 0008 _ 
: bz 01000025 
rights 权限 dc: rights accessRights 授权 给 谁 访问 全 部 注册 用 户 
license 允许 官方 许可 使 用 资源 进行 操作 的 法 律 文件 "i 
relation 相关 报纸 de; relation hasPart 包含 在 所 描述 资源 的 物理 或 逻辑 中 的 相关 资源 - 
v hasFormat 相关 资源 ,与 已 描述 的 资源 基本 相同 ,但 采用 另 - 
> 一 种 格式 。 


AQ 模型 设计 思路 


CO 近代 报纸 资源 语义 描述 模 


型 设计 既 要 对 报纸 内 容 
层面 的 相关 实体 进行 识别 和 关联 ,如 报纸 所 记载 
物 .时 间 、 地 点 .事件 ,机构 、 职 官 等 相关 实体 信息 ， 
又 根据 近代 报纸 逻辑 结构 对 其 物理 层面 的 描述 性 信 
感 轴 行 细 粕 度 挖掘 ,以 此 来 充分 描述 近代 报纸 资源 的 
整体 特征 。 本 文 主要 以 《 盛 京 时 报 》 作 为 模型 设计 实 
傅 间 以 展示 ,以 更 清晰 地 展现 模型 所 表达 的 知识 要 素 
及 至 识 内 在 语义 关系 。 
< 首先 ,确定 模型 的 实体 和 关系 。 通 过 调研 大 量 近 
代 艰 纸 资源 析出 相关 实体 类 型 ,以 实体 为 节点 ,谓词 为 
连 组 ,构建 近代 报纸 资源 实体 之 间 的 关联 ,并 绘制 模型 
KEA. 

其 次 ,定义 模型 的 描述 性 信息 , 即 描述 性 元 数据 或 
管理 性 元 数据 。 既 要 对 近代 报纸 资源 进行 全 局 描述 ， 
又 要 根据 逻辑 架构 对 内 容 信 息 进行 局 部 描述 。 在 析出 
近代 报纸 相关 属性 信息 基础 上 , 复 用 成 熟 的 元 数据 标 
准 ,并 自 定义 部 分 属性 。 

最 后 ,形成 一 个 完整 的 、 高 质量 的 .可 互 操作 的 、 专 
指 性 强 的 近代 报纸 资源 语义 描述 模型 ,实现 近代 报纸 

定 


资源 共享 ,推动 近代 报纸 资源 描述 定位、 检索 和 组 织 
能 力 。 

4.3 ”模型 设计 过 程 

4.3.1 确定 模型 实体 和 关系 


通过 调研 分 析 , 发 现 《 盛 京 时 报 》 内 容 主要 聚焦 于 
Ay .时间 地 点 .事件 机构、 职 官 实体 , 且 各 类 型 实体 
之 间 关 系 紧 密 。 本 小 节 复 用 CRM 本 体 中 人 物 (Ac- 
tor) 事件 (Event)、 地 点 (Place) Hj [8] ( Time-Span ) 实 


I 


体 , 复 用 ORG 本 体 中 机 构 (Organization ) 实体 ,并 自 定 
义 职 官 (0Oficial) 实 体 。 具 体内 容 如 下 : 

AH (erm: Actor) 。 主 要 指 《 盛 京 时报 》 中 所 记载 
的 人 物 ,如 备 完 莱 ME KAE AE KREM 
颐 等 。 

事件 (crm:Event)。 主 要 指 《 盛 京 时 报 》 中 所 记载 
的 事件 ,如 “日 本 在 长 春 设立 奉天 总 领事 馆 长 春分 馆 ” 
“长 春 开 商 埠 ”“ 日 本 建立 满 铁 附属 地 ”等 具有 重大 影 
响 意义 的 事件 。 

地 点 (crm:Place)。 主 要 指 《 盛 京 时 报 》 中 所 记载 
的 空间 位 置 或 行政 区 划 信 息 。 如 宽 城 子 、 长 春 、 哈 尔 
滨 .沈阳 西 三 道 街头 道 沟 ,大连 等 。 

IFM] ( crm: Time-Span) 。 主 要 指 《 盛 京 时 报 》 中 所 
记载 的 时 间 点 或 时 间 段 信息 ,一般 以 民国 以 前 年 号 纪 
年 方式 居多 ,民国 之 后 以 公元 纪年 方式 为 主 ,此 外 还 有 
农历 纪年 ,如 “光绪 三 十 三 年 二 月 二 十 五 “本 月 初 一 
日 ”等 。 

机 构 (org:Organization) 。 主 要 指 《 盛 京 时 报 》 中 所 
记载 的 机 构 信息 ,如 "长 春 府 “长 春 领事 馆 “ 巡 和 警 局 ” 
“民政 司 ”“ 禁 烟 局 ”等 实体 机 构 。 

职 官 (off: Official) 。 主 要 指 《 盛 京 时 报 》 中 所 记载 
4 和 职 官 信息 ,如 "知府 “观察 使 “太守 “总 办 ”“ 领 
于”“ 局 长 "等 。 

实体 关系 是 在 实体 类 型 基础 上 分 析 确 定 , 以 建立 
清晰 准确 的 实体 关系 。 本 文 以 《 盛 京 时 报 》 中 所 记载 
的 事件 “ 督 定 永定 河 ” 为 例 ,构建 实体 与 关系 示意 图 
( 见 图 2)。CRM 中 ES 表示 事件 实体 ,该 事件 参与 人 
9] Jy E21" EFR” ,事件 发 生 时 间 为 E52“1916 年 ”, 事 


]in| 项 
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o cesa SRI ESEKERRTI 


件 发 生地 点 为 E53“ 永 清 县 ” ,参与 机 构 “ 顺 直 助 赈 
局 ”, 参 与 职 官 “永定 河 督办 ”; 此 外 ,对 于 人 物 实体 E21 
“ESR A TAKE E67" mAIRE” I E69" im 2E 
莱 卒 年” ,与 E67 和 E69 关联 的 实体 有 E52 时 间 及 E53 
地 点 , 且 人 物 所 任职 官 为 “知府 ” ,所 任 机构 为 "长春 
Jj" ,当然 ,人 物 职 官 及 任职 机 构 在 不 同 的 历史 时 期 有 


所 变化 ,此 处 仅 展 示 其 重要 官职 及 任职 机 构 信 息 。 由 
此 ,《 盛 京 时 报 》 中 有 关 人 物事 件 、 地 点 、 时 间 、 机 构 、 
职 官 等 实体 及 实体 间 关 系 构成 了 一 个 网 络 关联 结构 ， 
对 其 语义 关系 予以 揭示 ,实现 报纸 资源 的 知识 组 织 三 
关联 分 析 。 


org:Organization 


顺 直 肋 赈 局 


off: Official 
水 定 河 工 督办 


has official 


org] participates in 


z 
E5 Event 


督 定 永定 河 


E52 Time-Span 


P4 has time-span 


P12 occurred in the presence ol 
Fxccanrurcci umi mupEGdeK 


has 区 


E52 Time-Span E53 Place 
1924 XH 
P4 has time-span P7 took place at 


E69 Death(E64) 
da AERA AR. 


P100 was death of(P93) 


z 
E21 Person(E39) 


org:work at 


org:Organization 
长 春 府 


P58 brought into life(P92) 


b. md E53 Place P7 took place at Off: Official Te 
> 永 清 县 知府 — 
- [o uS 
s P4 has time-span P7 took place at 
[ee] E52 Time-Span E53 Place 
O 1866 ERAH 
e " = Si 
=F 图 2 《 盛 京 时 报 》 实 体 与 关系 示意 
È 定义 模型 描述 性 信息 具有 简易 性 .灵活 性 和 兼容 性 等 特征 ,适用 于 广泛 的 网 


CK 盛 京 时 报 ) 实 体 与 关系 是 针对 报纸 内 容 语义 层 

构建 语义 描述 模型 。 本 节 将 以 《 威 京 时 报 》 为 例 ， 
从 物理 层面 特征 进行 描述 性 信息 定义 ,以 此 构建 一 个 
完 束 的 近代 报纸 资源 细 粒 度 语义 描述 模型 。 通 过 阅览 
AE D AES SHOOTER UU). 
HEP IER AERE REBCT FE JR T AR VES IS 
PR n t FE CU oc ne JF ELE XUNTA) OUR, 
BIRRE A. 

(1) 复 用 元 数据 标准 说 明 。 复 用 元 数据 需要 充分 
考虑 近代 报纸 资源 特征 ,选择 恰当 适用 的 元 数据 标准 。 
近代 报纸 区 别 于 当代 报纸 ,尤其 在 物理 形态 和 刊载 内 
容 方面 存在 较 大 差异 。 近 代 报 纸 物理 载体 是 以 油印 、 
铅 印 . 石 印 等 材质 为 主 ,而 当代 报纸 大 多 以 数字 化 文本 
呈现 , 且 在 出 版 周期 .发行 数量 等 方面 也 有 别 于 当代 报 
纸 , 因 此 在 元 数据 描述 时 要 考虑 此 要 素 ;近代 报纸 刊载 
内 容 以 中 国 近 代 半 殖民 地 半封建 的 历史 及 中 华 民 族 奋 
起 反抗 的 英勇 事迹 为 核心 ,反映 了 中 国 近 代 社 会 的 历 


E] 


络 信息 资源 描述 ,同样 也 适用 于 近代 报纸 资源 描述 ,但 
元 素 专 指 性 和 针对 性 差 ,可 作为 近代 报纸 元 数据 描述 
补充 框架 ;EAD 作为 档案 资源 元 数据 规范 , 主要 用 于 
描述 档案 和 手稿 资源 。 近 代 报 纸 也 被 视 为 历史 档案 的 
一 部 分 ,因此 考虑 复 用 EAD 部 分 元 素 辅 以 模型 描述 ， 
如 档案 物理 形态 方面 元 素 ( 档 案 来 源 .档案 编号 ) ;《 古 
籍 描述 规范 》 是 国家 科技 支撑 计划 项 目 “ 文 物 数字 化 
保护 标准 体系 及 关键 标准 研究 与 示范 ”课题 研究 成 果 ， 
共 发 布 62 项 标准 规范 ,如 文物 .甲骨 、 熏 图 \、 壁 画 、 拓 
Hr 古籍 等 元 数据 著录 规范 ,适用 于 古籍 .文物 类 资源 
描述 。 近 代 报 纸 具 备 文物 资源 属性 , 与 4 古籍 描述 规 
范 》 中 对 文物 创作 .文物 出 版 发 行文 物 材 质 尺 十 文物 
数字 对 象 和 馆藏 单位 等 元 素描 述 相 一 致 ,因此 考虑 复 
有 《古籍 描述 规范 》 部 分 核心 元 素 。 

(2) 定 义 模型 全 局 描述 性 信息 。 描 述 模型 共 包 括 
21 个 元 素 , 复 用 《古籍 元 数据 规范 》( 用 sach 表示 国家 
文物 局 (State Administration of Cultural Heritage) ) 8 个 


Cm 


史 变 迁 历程 , 具 有 重要 的 档案 价值 和 文物 价值 ,在 元 数 
据 描述 时 需 考 虑 其 档案 及 文物 资源 属性 。 


元 素 , 复 用 DC 标准 (用 de 表示 )8 个 元 素 , 复 用 EAD 
标准 (用 ead 表示 )2 个 元 素 , 自 定义 (newspaper, 用 np 


综 上 ,本文 主要 从 通用 资源 元 数据 标准 、 档 案 资源 
元 数据 标准 及 文物 资源 元 数据 标准 3 个 维度 探讨 近代 
报纸 资源 描述 规范 。DC 作为 国际 通用 的 元 数据 标准 ， 


表示 )3 个 元 素 。 具 体 信 息 见 表 2。 
以 《 盛 京 时 报 》 为 例 ,绘制 模型 描述 性 信息 示意 图 
见 图 3 ,以 进一步 诠释 说 明 表 2 信息 。 


&Q 54i xt 


$866 35 58 7 Hd. 2022 年 4 月 


ChinaXiv 合 作 期 刊 


sach:creation.creator 


Ex: 中 岛 真 雄 


Ex: 沈阳 


容 > 近 代 报纸 资源 主要 以 “正文 "和 


系 为 主 。 因 此 在 描述 近代 报纸 资 
从 滋 两 方面 着 手 , 复 用 相关 的 元 数据 标准 ,并 自 定义 部 
六 息 。 具 体 如 表 3 所 示 ,正文 包括 


IDR ,提取 其 特征 
le 


hasCreatePlace 


sach:creation.createPlace 


de:rights.accessRights 


Ex: 全 部 注册 用 户 


源 内 容 信息 时 ,需要 


np:column 


Ex: 东 三 省 新 闻 


de:title 


Ex: 《成 京 时 报 》 


de:contributor 
Ex: 菊池 贞 二 


Modern Newspaper 


Ex: 《 盛 京 时 报 》 hasPublishedCycle 


np:publishedCycle 
Ex: 日 报 


sach.published.publiser 
Ex: 右京 时 报社 


hasPublisher 


hasCreatdDate 


sach:creation.createDate 


Ex: 1906.10.18 


图 3 《 盛 京 时 报 》 全 局 描 
(3) 定 义 模型 局 部 内 容 描述 性 信息 。 依 据 3. 1 内 


述 性 信息 m^ 示意 


3 个 元 素 , 复 用 sach 标准 1 个 .DC 标准 1 个 . 自 定义 
1 个。 

以 4《 盛 京 时 报 》 为 例 , 深 入 正文 和 广告 内 容 层面 ， 
依据 表 3 内 容 绘制 示意 图 见 图 4, 以 更 清晰 地 呈现 相关 
的 特征 信息 。 


dT 两 大 逻辑 体 


RI 近代 报纸 局 部 内 容 元 数据 描述 


e JUR ”元 素 定义 ”元 素 复 用 标准 ”元 素 限 定 词 描述 示例 
co title 题名 de; title 一 题名 “开放 北 满 商 塌 电 文 
CNhiae type 类 型 de: type - 社会 新 闻 EG I eie COE ER 时 政 新 闻 
© event 事件“ 自 定义 np:event -通知 事件 ,抗议 事件 ,谈判 事件 ,战争 事件 、 任 命 事件 .罢免 事 “通知 事件 
N TF icy re 

"E" 

"- X title 题名 dc: title 一 题名 “ 阿 稳 精 药片 增 食欲 助 
Advertisement 消化 治 便秘 ” 
>< type 类 型 dc: type a 交通 广告 ,金融 广告 烟草 广告 医药 广告 ,银行 广告 AS EA 

e Pad 

告 

f£ date 日 期 de; date c: 广告 售卖 日 期 1937 年 
,一 commodity 商品 EAE X np:commodity name 商品 名 称 “ 阿 穆 精 ” 

© company ”商品 生产 公司 武田 长 兵 衔 商店 股份 有 

限 公 司 
category ”金融 ,保险 洋行 ,铁路 ,药品 \ 保 健 品 、 书 籍 等 药品 
price 商品 价格 大 瓶 三 个 月 分 ;中 瓶 四 十 
五 日 分 ;小 瓶 半月 分 
agent 商品 代理 商 奉天 各 大 药房 
address 商品 售卖 地 址 奉天 春日 叮 十 三 番地 


Article 


de;type 
Ex: 时 政 新 闻 


Ex: 开 放 北 满 商丘 上 


Modern Newspaper 


Ex:《 成 京 时 报 》 


hasltem 


hasltem 


Advertisement 


Ex: 阿 穆 精 广告 


hasEvent 


hasCompany 


np:event hasType 


Ex: 通 知事 件 


hasDate 


de:type 
Ex: 医 药 广告 ， 


de:date 
Ex:1937 年 


np.commodity.company 
Ex: H CF fih o 
有 限 公司 


示意 


a 


图 4 《 盛 京 时 报 》 正 文 和 广告 信息 
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综 上 分 析 , 近 代 报 纸 资 源 语义 描述 模型 从 知识 元 
细 粒 度 视角 出 发 ,从 内 部 语义 关联 到 外 部 逻辑 关联 , 解 
构 近 代 报 纸 资 源 特征 。 首 先 ,抽取 人 物 \ 时 间 、 地 点 、 事 
IF DARRE 6 类 实体 ,并 构建 实体 之 间 的 关系 , 复 
用 CIDOC-CRM 模型 构建 逻辑 关系 示意 图 ;其 次 ,抽取 
模型 全 局 描述 性 信息 和 局 部 内 容 描述 性 信息 ,并 从 近 
代 报 纸 “ 正 文 " 和 “广告 ”两 个 维度 剖析 其 内 容 特征 , 复 
用 《古籍 元 数据 规范 》、EAD 和 DC 标准 构建 语义 关联 


多 报纸 . xsd X @ 报 纸 -APxsd. xsd X @instancel. xm] X @ 报 纸 -ead. xsd X © HEX. 
schema 


Target Namespace http://purl.org/dc/terms/ 


Element Form Default | qualified 


«tm import: http://www.sach.gov.cn/core/terms/ (sach.xsd) 


| < import: http://oldnewspapers.edu.cn/terms/ (%E8%87%AA%E5%AE%9A%E4%B9%89.xsd) ] 


«tm import: http://www.loc.gov/ead/terms/ (%E6%8A%A5%E7%BA%B8-ead xsd) 


cms" 


国 titleType | 


示意 图 ;最 终 形成 一 个 清晰 完整 的 近代 报纸 资源 细 粒 
度 语义 描述 模型 。 
5 近代 报纸 资源 细 粒 度 语义 描述 模型 
应 用 
5T 基于 XML 模型 应 用 

本 为 了 更 好 地 将 近代 报纸 资源 细 粒 度 语义 描述 模型 
ee ,实现 不 同 元 数据 之 


间 和 的 互 操作 .数据 交换 和 资源 利用 共享 目标 。 本 文采 
XML Extensible Marked Language) 语言 对 其 进行 描 
mr. 是 W3C 推出 的 一 种 可 扩展 编辑 语言 ,具有 语 
ritis RED" RS . 互 操作 性 强 方便 网 络 传输 等 特 
VEST , 且 为 用 户 提供 了 灵活 的 标记 扩展 机 制 。 本 文 
VE OUI E BUR YES] XML 中 ,采用 Oxygen 
XME 编辑 工具 创建 xsd 格式 文档 。Oxygen XML Edi- 
XML 查看 和 编辑 功能 为 一 体 的 软件 ,为 

IE XML 创作 和 开发 工具 ,可 以 自动 完成 代码 
REE jt RU .代码 高 亮 显示 等 功能 。Oxygen XML 
EEA XML 标准 ,可 扩展 性 高 ,支持 连接 大 部 分 数 
H, 

本 文 使 用 Oxygen XML 软件 对 描述 模型 进行 编辑 ， 
构建 Element 和 ComplexType, 5| A DC,EAD,sach f 
准 , 自 定义 标准 np 等 ,并 创建 命名 空间 ( namespace) 。 
Oxygen XML Editor 具体 操作 界面 和 构建 元 素 见 图 5。 
5.2 ”基于 RDE/XML 模型 应 用 

在 4.1 基础 上 ,进一步 采用 资源 描述 框架 封装 描 
述 模型 。RDF 是 W3C 在 XML 基础 上 推荐 的 一 种 描述 
网 络 资源 的 标准 ,用 来 对 结构 化 元 数据 进行 编码 、 
数据 交换 和 重用 ,为 元 数据 提供 一 个 可 操作 的 载体 和 
容器 。RDF 采用 XML 作为 处 理 元 数据 的 通用 语法 结 
构 体 系 ,为 XML 加 入 结构 化 约束 提供 清晰 明确 的 语义 
RADE”, RF 将 资源 看 作对 象 ,用 统一 资源 定位 
符 URI 作为 标识 系统 ,并 且 提供 一 种 RDE/XML 的 可 
扩展 置 标语 言 来 书写 和 交换 RDF 模型 。 一 般 用 三 元 


creation 


- © 
Type | dc:creationType 


国 creationType |@ 


published @ 
Type | dc:publishedType 


国 publishedType | 


图 5 Oxygen XML Editor 操作 界面 


组 (主体 (subject) ,谓语 (predicate) X} 2 (object) ) 来 
表示 资源 对 象 。 将 XML 与 RDF 结合 ,能 充分 发 挥 各 
自 优势 ,实现 资源 的 语义 描述 和 应 用 。RDF 可 以 引用 
不 同 的 元 数据 方案 ,将 多 种 元 数据 封装 在 统一 的 描述 
模型 中 ,实现 元 数据 之 间 的 互 操作 。RDF 规范 性 语法 
如 下 :每 个 RDF 声明 用 一 个 rdf: Description 元 素 表 示 ， 
用 rdf:about 属性 值 声明 主体 的 URI 引用 。 词 汇集 使 
用 本 文 所 构建 的 近代 报纸 元 数据 描述 框架 ,以 《成 京 时 
报 》 为 实例 予以 应 用 ,使 同一 资源 的 不 同属 性 采用 不 同 
的 元 数据 标准 ,实现 不 同 元 数据 之 间 的 互 操作 ,更 深层 
次 地 描述 资源 内 容 。 

本 文采 用 W3C RDF 验证 器 “来 验证 RDF 文档 ， 
结果 见 表 4。 从 表 4 可 以 看 出 ,W3C 自动 生成 了 《 盛 京 
时 报 》RDF 数据 模型 三 元 组 , 即 主体 .谓语 对象。 如 
主体 为 《 盛 京 时 报 》, 谓 语 为 资源 描述 属性 , 对象 则 为 
属性 值 。RDF 将 不 同 的 元 数据 进行 封装 ,用 三 元 组 < 
资源 ,属性 ,属性 值 > 灵活 地 描述 报纸 资源 ,上 且 所 有 资 
源 均 通过 唯一 的 URI 来 标识 ,使 得 资源 以 结构 化 方式 
呈现 。 本 小 节 仅 呈现 《成 京 时报 》 资 源 属性 三 元 组 ,未 
来 会 进一步 丰富 本 体 描 述 模型 ,采用 深度 学 习 算 法 识 
别 《 戌 京 时报 》 中 人 人物、 事件. 地点、 机 构 、 职 官 等 实体 ， 
将 实体 存 和 到 关系 数据 库 中 ,通过 外 键 设 定 实体 关系 ， 
使 用 D2RQ 工具 将 RDB 关系 数据 转换 为 RDF 数据 格 
式 ,在 此 基础 上 借助 Virtuoso 数据 库 进行 存储 ,并 采用 
SPARQL 语言 进行 检索 ,实现 报纸 资源 的 互联 共享 及 
利用 。 
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X4 RDF 验证 结果 


Number Subject Predicate Object 
1 http ://oldnewspapers. edu. cn/ shengjingshibao. html http://www. sach. gov. cn/core/terms/ Identifier “http ;//oldnewspapers. edu. cn/shengjingshibao. html" 
2 http ;//oldnewspapers. edu. cn/shengjingshibao. html http ;//purl. org/dc/elements/1. 1/Title “成 京 时 报 ” 
3 http ;//oldnewspapers. edu. cn/shengjingshibao. html http://www. sach. gov. cn/core/terms/creator “中 岛 真 雄 ” 
4 http :/ /oldnewspapers. edu. cn/shengjingshibao. html http ;//www. sach. gov. cn/core/terms/creationDate “1906 - 10 - 18" 
5 http ://oldnewspapers. edu. cn/shengjingshibao. html http ;//www. sach. gov. cn/core/terms/creationPlace “沈阳 ” 
6 http :/ /oldnewspapers. edu. en/shengjingshibao. html http://www. sach. gov. cn/core/terms/ publisher “成 京 时 报社 ” 
7 http ://oldnewspapers. edu. cn/shengjingshibao. html http;//oldnewspapers. edu. cn/terms/publishedCycle “日 报 ” 
8 http :/ /oldnewspapers. edu. cn/shengjingshibao. html http ;//www. sach. gov. cn/core/terms/issued “1906 - 10 - 18" 
9 http ://oldnewspapers. edu. cn/shengjingshibao. html http://www. sach. gov. cn/core/terms/ printer “未 知 ” 
10 http :/ /oldnewspapers. edu. cn/shengjingshibao. html http://www. sach. gov. cn/core/terms/ printedPlace “沈阳 ” 
11 http ://oldnewspapers. edu. cn/shengjingshibao. html http://www. sach. gov. cn/core/terms/printedDate “1906 - 10 - 18" 
12 http ;//oldnewspapers. edu. cn/shengjingshibao. html http ;//purl. org/dc/elements/1. 1/contributor * Ail ui — 
13 http ;//oldnewspapers. edu. cen/shengjingshibao. html http ;//purl. org/dc/elements/1. 1/type “文本 ” 
14 http ;//oldnewspapers. edu. cn/shengjingshibao. html http ;//purl. org/dc/elements/1. 1/language “中 文 ” 
“《 盛 京 时 报 》 收 罗 泛 博 , 对 当时 我 国内 政 、 外 交 、 经 济 、 
军 教育 .社会 风情 等 ,特别 是 对 当时 中 国 发 生 
Uis http ;//oldnewspapers. edu. cn/shengjingshibao. html http ;//purl. org/dc/elements/1. 1/abstract 重大 事件 , 均 有 详 略 不 等 的 报道 ;是 研究 近 现 代 史 、 
> 国际 关系 史 ,东北 军民 抗日 中 .北洋 军 阔 史 极 为 珍贵 的 
T 资料 ,可 供 多 方面 的 研究 和 利用 。” 
ye http :/ /oldnewspapers. edu. cn/shengjingshibao. html http ;//purl. org/dc/elements/1. L/keywords “东北 近代 史 、 近 代 报 纸 .北洋 关系 ” 
CO genid; AI311 http://www. w3. org/1999/02/22-rdí-syntax-nsfttype http ;//www. w3. org/1999/02/22-rdf-syntax-nsstBag 
(er) http :/ /oldnewspapers. edu. cn/shengjingshibao. html http ://oldnewspapers. edu. cn/terms/Column genid; A1311 
[em] genid ; AI311 http://www. w3. org/1999/02/22 -rdf-syntax-nsst. 1 “评论 ” 
Él genid; AI311 http://www. w3. org/1999/02/22-rdí-syntax-ns&t 2 “广告 ” 
© genid ; AI311 http://www. w3. org/1999/02/22 -rdf-syntax-ns&t. 3 “民国 要 闻 ” 
co genid ; AI311 http://www. w3. org/1999/02/22 -rdf-syntax-ns&t 4 “ 东 三 省 新 闻 ” 
[e| http ;//oldnewspapers. edu. en/shengjingshibao. html http;//oldnewspapers. edu. cn/terms/publishedCycle “日 报 ” 
co http ;//oldnewspapers. edu. cen/shengjingshibao. html http;//oldnewspapers. edu. cn/terms/issue “12347 期 ” 
C http ;//oldnewspapers. edu. cn/shengjingshibao. html http://www. sach. gov. cn/core/terms/ materials “油印 ” 
w http :/ /oldnewspapers. edu. cn/ shengjingshibao. html http://www. sach. gov. cn/ core/ terms/ dimensions "27.0 x20.0cm” 
m apga http :/ /oldnewspapers. edu. cn/ shengjingshibao. html http://www. sach. gov. cn/ core/terms/ levelOfCompleteness M T 
K http ://oldnewspapers. edu. cn/shengjingshibao. html http://www. sach. gov. cn/core/terms/priority “部 分 修复 ” 
© http :/ /oldnewspapers. edu. cn/ shengjingshibao. html http ;//www. loc. gov/ead/terms/num “RH 
Ga http :/ /oldnewspapers. edu. cn/ shengjingshibao. html http://www. sach. gov. cn/ core/ terms/ geographicLocation “辽宁 省 图 书馆 ” 
c http ://oldnewspapers. edu. cn/shengjingshibao. html http://www. loc. gov/ead/terms/corpname 辽宁 省 图 书馆 ” 
Q http ;//oldnewspapers. edu. cn/shengjingshibao. html http ;//www. loc. gov/ead/terms/persname “RH 
33 http :/ /oldnewspapers. edu. cn/shengjingshibao. html http://www. sach. gov. cn/core/terms/ digital ResourceCreator “抗日 战争 与 近代 中 日 关系 文献 数据 平台 ” 
34 http :/ /oldnewspapers. edu. en/shengjingshibao. html http ;//www. sach. gov. cn/ core/ terms/ digital ResourceDescription “ 盛 京 时 报 扫描 图 像 ” 
35 http ://oldnewspapers. edu. cn/shengjingshibao. html http ://purl. org/dc/elements/1. 1/rights “所 有 注 p 


纸 资 源 全 局 和 局 部 描述 性 信息 。 
本 文 所 构建 的 近代 报纸 资源 细 粒 度 语义 描述 模型 


近代 报纸 资源 草 藏 的 史料 信息 丰富 , 亚 待 知识 组 
织 技术 和 方法 助力 其 开发 。 本 文通 过 分 析 近 代 报 纸 资 
源 物 理 布局 .逻辑 结构 及 内 容 信息 ,以 《 盛 京 时 报 》 为 
例 , 从 本 体 描述 和 元 数据 描述 两 个 维度 构建 近代 报纸 
资源 细 粒 度 语 义 描述 模型 ,并 采用 RDE/XML 语言 应 
用 描述 模型 。 在 本 体 语 义 描述 中 ,采用 CRM 等 本 体 概 
念 模 型 表达 《 盛 京 时 报 》 实 体 和 关系 ,并 以 “ 督 定 永 定 
河 " 事 件 为 例 , 构 建 人 物 . 时 间 、 地 点 、 事 件 . 机 构 及 职 官 
实体 的 语义 关系 。 在 元 数据 描述 中 ,结合 近代 报纸 资 
源 特 征 , 复 用 DC EAD 和 《上 古籍 元 数据 规范 》, 构建 报 


具有 理论 和 实践 价值 。 在 理论 层面 ,拓宽 了 本 体 和 元 
数据 适用 场 域 ,将 知识 组 织 理 论 应 用 于 近代 报纸 研究 
对 象 上 , 透 过 元 数据 揭示 近代 报纸 资源 物理 载体 特征 ， 
定位 报纸 资源 位 置信 息 ,实现 资源 快速 导航 、 发 现 以 及 
多 维 语义 检索 ; 透 过 本 体 解析 隐藏 在 报纸 资源 中 的 人 
物 \ 时 间 、 地 点 、 事 件 . 机 构 、 职 官 等 实体 信息 ,并 构建 实 
体 之 间 的 语义 关联 关系 ,从 细 粒 度 视 角 挖掘 知 识 单元 ， 
构造 互联 互通 的 语义 网 络 。 实 践 层面 上 ,本 文 构建 的 
语义 描述 模型 同样 适用 于 近代 其 他 报纸 资源 的 描述 。 
同时 也 为 当前 近代 报纸 数据 库 在 资源 描述 .检索 及 语 
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义 服务 等 方面 存在 的 不 足 提供 参考 路 径 ,以 推动 近代 
报纸 资源 规范 化 管理 和 精细 化 服务 ,提升 近代 报纸 资 
源 利 用 效率 ,充分 发 挥 近代 报纸 资源 的 史料 价值 和 文 
献 价值 ,进而 传承 社会 记忆 ,发 展 中 华 民 族 优秀 传统 文 
化 。 未 来 会 进一步 采用 深度 学 习 模 型 对 报纸 不 同类 型 
实体 进行 识别 ,以 此 丰富 实例 内 容 。 
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Design and Application of the Fine-Grained Semantic Description Model of Modern Newspaper Resources: 
Taking Shengjing Times as an Example 
Sun Shaodan' Deng Jun Chang Yanyu Zhang Zishu Shen Yong 
' School of Business and Management, Jilin University, Changchun 130012 
“School of Public Health, Jilin University, Changchun 130022 


Abstract: | Purpose/Significance | This paper designs a scientific and standardized fine-grained semantic de- 
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(seription model of modern newspaper resources, and reveals the characteristics and relationships of modern newspaper 
«iesources in depth, in order to provide references for the effective management, organization, knowledge discovery 
Cand knowledge service of modern newspaper resources. | Method/Process | By analyzing the logical structure , phys- 
«t layout, contents of modern newspaper resources, starting from two aspects of domain ontology description and 
CGnetadata description, this paper reused the CIDOC-CRM ontology conceptual model, EAD, DC and Ancient Book 
Olaus Specification, and took Shengjing Times as an example to design a fine-grained semantic description model 
ES modern newspaper resources. Then, it used Oxygen XML tool to describe the semantic model in RDF/XML lan- 
age to realize element interoperability and model application. | Result/ Conclusion | This paper aims to provide an 

rable fine-grained semantic description model for the modern newspaper resource organization, provide a basic 
*suarantee for the construction of the modern newspaper resource database, the standardized newspaper management 
and the application system development, and promote the development, utilization and sharing of the modern news- 
paper resources. 


Keywords: modern digital newspaper resources semantic description model Shengjing Times RDF/XML 
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